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宠物 知识 图 谱 的 半自动 化 构建 方法 
囊 琦 , 刘 测 ， 谢 振 平 ， 陆 “ 苯 


(江南 大 学 数字 媒体 学 院 , 江苏 无 锡 214122) 


摘 要 : 提出 一 种 宠物 知识 图 谱 的 构建 框架 。 通 过 自 顶 向 下 的 方式 设计 并 构建 了 Schema( 概 念 ) 层 ， 从 半 结 构 化 和 非 结 
构 化 数据 中 进行 知识 抽取 构建 了 数据 层 。 在 对 非 结构 化 数据 的 实体 抽取 方面 ， 提 出 了 一 种 条 件 随机 场 《CRF) 与 宠物 
症状 词典 相 结 合 的 症状 命名 实体 识别 方法 。 该 方法 利用 症状 词典 对 文本 进行 识别 ， 获 取 语 义 类 别 信 息 ，CRF 结合 语义 
言 息 实 现 对 症状 实体 的 识别 抽取 。 实 验 结果 表明 了 该 方法 的 有 效 性 。 在 知识 表示 方面 ， 选 用 OrientDB 数据 库 支 持 的 属 
性 图 模型 来 表示 。 知 识 图 谱 采 用 OrientDB 图 数据 库 来 完成 知识 的 存储 ， 并 实例 展示 了 构建 的 宠物 知识 图 谱 。 
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Semi-automated construction method of pet knowledge graph 


Yuan Qi, Liu Yuan, Xie Zhenping, Lu Jing 
(School of Digital Media, Jiangnan University, Wuxi Jiangsu 214122, China) 


Abstract: This paper proposed a construction framework of pet knowledge graph. It designed and constructed the schema layer 
in a top-down manner and constructed the data layer by extracting knowledge from semi-structured and unstructured data. For 
entity extraction of unstructured data, this paper proposed a symptom-named entity recognition method which combined 
conditional random field (CRF) and pet symptom dictionary. The method used symptom dictionary to identify the text and obtain 
the semantic category information, and then combined CRF and the semantic information to identify symptom-named entities. 


The experimental results showed the effectiveness of the method. The attribute graph model supported by the OrientDB database 


was selected for knowledge representation. The knowledge graph used the OrientDB graph database for knowledge storage. In 


addition, examples were shown for the constructed pet knowledge graph. 


Key words: pet knowledge graph; symptoms dictionary; pet symptom named entity recognition; conditional random field (CRF); 


= graph database 
0 引言 索引 擎 返回 的 大 量 信息 感到 迷茫 。 因 此 人 们 对 可 以 提交 用 自然 
一 语言 表达 的 宠物 相关 问题 ， 系 统 会 返回 相关 又 准确 的 答案 的 问 


随 着 经 济 社会 的 发 展 ， 宠 物 越 来 越 多 地 出 现在 人 们 生活 当 ， 答 系 统 有 着 非常 迫切 的 需求 。 目 前 基于 知识 库 的 问答 聊天 机 器 
中 ， 家 庭 结 构 和 人 口 结构 的 变化 使 得 宠物 进入 了 更 多 的 家 庭 。 人 有 微软 小 冰 、 百 度 的 度 秘 等 。 因 此 构建 关于 宠物 知识 库 对 实 
据 京东 《2017 宠物 消费 趋势 报告 》 的 分 析 ， 目 前 中 国 宠物 已 经 。 现 智能 问答 有 研究 意义 和 应 用 价值 。 
突破 1 亿 只 。 互 联网 是 人 们 很 重要 的 获取 宠物 百科 知识 和 宠物 前 国内 外 大 型 互联 网 公司 纷纷 推出 知识 图 谱 以 改善 服务 
医疗 知识 的 来 源 之 一 。 大 多 数 的 宠物 主人 缺乏 宠物 知识 ， 当 他 ”质量 ， 同 时 当今 也 涌现 出 了 人 类 医学 的 知识 图 谱 ， 并 且 发 展 迅 
门 需要 了 解 这 方面 的 知识 的 时 候 ， 大 多 的 宠物 主人 主要 是 通过 ” 速 。 但 在 宠物 领域 尚未 出 现成 熟 、 专 业 的 知识 图 谱 。 本 文 的 主 
互联 网 上 Google 和 百度 之 类 的 搜索 引擎 来 获取 知识 。 然 而 这 会 。 要 工作 包括 : 


bm 


ES 


花费 宠物 主人 很 多 时 间 来 判断 哪些 内 容 包 含 了 自己 想 要 的 信息 ， a) 宠物 知识 图 谱 Schema( 概 念 ) 层 构建 。 根据 需求 , 利用 并 
很 多 时 候 ， 用 户 想 要 获取 进一步 的 知识 ， 还 需要 自己 再 一 次 的 ”上 且 分 析 基 于 有 宠 网 的 疾病 百科 来 定义 宠物 知识 图 谱 Schema 层 。 
阅读 和 筛选 。 这 导致 了 信息 检索 的 效率 比较 低下 ， 用 户 会 对 搜 b) 信息 抽取 。 实体 抽取 、 实 体 属 性 关系 抽取 和 语义 关系 的 
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抽取 。 从 不 同 数据 源 中 通过 怜 虫 疏 取 ， 数 据 过 滤 、 清 
来 获取 结构 化 宠物 知识 和 实体 属性 关系 抽取 、 语 义 关系 的 抽取 。 
通过 条 件 随 机 场 《CRF ) 与 症状 字典 相 结 合 的 症状 命名 实 
别 模型 来 获取 命名 实体 。 首 先 通 过 扑 取 网 上 知识 来 构造 宠 


| | ChinaXiv 合 作 
琦 ， 等 : 宠物 知识 图 谱 的 半自动 化 构建 方法 


| 内 


Hp 识 的 层次 结构 ， 需 要 预先 构建 模 
的 是 大 部 分 本 体 知识 库 都 采用 的 
顶 向 下 的 方式 构建 模式 


中 (schema 层 )。 本 文采 月 
自动 化 的 知识 图 谱 构建 方法 。 通 


学 症状 相关 的 术语 及 语义 类 别 信息 


Zl 


状 命名 实体 识别 。 


c) 知识 表示 。 选 择 OrientDBO 原 生 图 数据 库 支 持 的 属性 


模型 来 进行 知识 表示 。 


d) 将 获取 到 的 Schema 层 数 据 和 实例 层 数据 通过 OrientDB 
图 数据 库 进行 知识 的 存储 , OrientDB 图 数据 库 使 用 类 SQL 查询 


1 ”相关 工作 


2012 年 ， 谷 歌 正 式 提 出 知识 图 谱 (knowledge graph) 中 的 概 
念 ， 以 此 为 基础 构建 智能 搜索 系统 ， 和 希望 通过 ;准确 了 解 月 


搜索 意图 ， 改 善 搜索 质量 和 用 户 的 搜索 体验 。 


zm 


词典 。 通 过 将 症状 的 语义 类 
别 信息 作 为 特征 加 入 到 CRF 模型 中 来 获取 比较 准确 的 疾病 症 


[手工 方式 先 构建 宠物 知识 图 谱 的 
重 过 自 底 向 上 的 方式 构建 宠物 知识 图 谱 的 数据 图 〈 数 


(schema 层 )， 也 就 是 通关 


明 刊 
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层 ),， 利 用 多 种 抽取 技术 获得 实体 、 属 性 以 及 关系 ,抽取 出 高 


砚 


0 识 图 谱 的 过 程 中 ， 需 要 对 


命名 实体 识别 问题 ， 
03、 支 持 向 量 机 〈SVM) [时 、 条 件 随机 ] 


述 症 状 的 非 结构 化 文 
体 识 别 。 目 前 有 很 多 常用 的 机 器 学 习 
如 隐 马 尔 可 夫 模 型 (HMM) 
场 CRF) 等 。 


CRF 是 由 Lafferty 等 人 05 于 2001 和 0 
最 大 炉 模型 的 基 而 
克服 隐 马 尔 可 夫 模 型 (HMM ) 假设 条 们 
篇 置 问题 。CRF 可 以 看 做 是 一 种 无 向 图 模型 。 常 
生 链 CRF。 给 定 输入 句子 中 的 单词 序列 作 
应 的 输出 标记 序列 , CRF 定义 了 s 的 条 
| 练 求 得 pGslo) 为 最 大 值 时 的 状态 序列 


的 CRF 模型 是 线 | 
为 观测 序列 o，s 表示 对 
概率 分 布 p(s|o) , 通 


二 


目前 很 多 国外 的 大 规模 通用 知识 图 谱 的 研究 
果 , 具有 代表 性 有 YAGOB1]、 Freebasel11、 DBpediat5]、NELLI9 


成 
等 ， 这 些 知 识 图 谱 包 含 了 大 量 的 常识 知识 。 与 国 


知识 图 谱 构建 与 研究 还 处 于 起 步 阶段 ， 主 要 有 Zhishi.meM 等 。 
国内 垂直 领域 知识 图 谱 ， 如 中 医药 知识 图 谱 的 构建 


s 。 线 性 链 CRF 中 的 输出 序列 s 的 条 伯 


1 
plo = ~exp(2 2 AS Seo 加 (1) 
天 


据 领域 知识 创建 中 医药 知识 图 谱 的 模式 ， 通 过 信息 转换 ， 将 关 


系数 据 库 中 的 中 医药 结构 化 信息 转换 为 RDF 数 # 


模块 ， 采 用 多 策略 学 习 的 方法 ， 从 半 结 构 化 和 非 结 构 化 数 # 
抽取 信息 ， 最 后 将 不 同 数据 源 的 数据 进行 模式 对 齐 。 
文物 知识 图 谱 的 构建 四 ， 通 过 在 七 步 法 和 骨架 济 


EF 


s 的 概率 和 为 1， 大 (8，。 So 为 特 和 


进 ， 提 出 了 文物 的 本 体 构建 方法 ， 接 着 设立 知识 节点 ， 知 识 存 


全 隐 马 尔 可 夫 模型 和 
的 统计 序列 标注 算法 。CRF 可 有 效 地 
的 限制 以 及 能 在 一 定 程 


概率 公式 入 下 : 


z=2 exp(2 2 0 SeoiDO) 其 中 : s 为 
了 i=l 天 


示 注 序列 ; o 为 观察 序列 ，z 是 归 一 化 


子 , 为 的 是 使 状态 序列 
函数 ， 4 是 对 应 的 权 


| L-BFGS 算法 对 条 件 随机 场 CRF 进行 参数 估计 。 


储 ， 通 过 采集 过 来 的 文物 信息 进行 本 体 实 例 化 ， 
物 实例 和 本 体 概 念 就 是 知识 图 谱 中 的 知识 节点 ; 
的 形式 存储 到 图 数据 库 Neo4j 中 。 


识 图 谱 的 构建 框架 ， 由 软件 知识 提取 模块 、 知 识 融 合 模块 、 存 


储 管理 和 软件 知识 检索 模块 构成 。 


双语 影视 知识 图 谱 的 构建 研究 1， 通 过 半 自 双 
建 了 双语 影视 本 体 ， 在 知识 链接 方面 ， 采 用 基于 Word2Vec 和 
TFIDF 两 种 实体 相似 度 计 算 方 法 ， 在 实体 匹配 上 务 


CRF 模型 在 近 几 各 


到 医疗 命名 实体 识别 当中 ， 


宠物 知识 图 谱 的 构建 


宠物 知识 图 谱 设 计 并 构建 的 总 体 


E23 


面向 开源 软件 项 目的 软件 知识 图 谱 的 构建 中 ， 针 对 四 
同类 型 的 软件 资源 ， 提 出 了 软件 知识 实体 的 提取 原则 和 方法 
提出 了 软件 知识 实体 之 间 关 联 关 系 构建 的 方法 ， 设 计 了 软件 


医 架 包括 五 个 步 又， 如 


页 


顶 向 下 的 方式 构建 宠物 知识 医 


结构 化 数据 中 抽 本 


相似 度 传播 算法 的 实体 匹配 算法 。 总 的 来 说 ， 国 


知识 图 谱 还 是 比较 少 ， 在 宠物 领域 方面 ， 目 前 国 


芭 。 从 半 结 构 化 的 数据 源 中 进行 实 


区。 从 非 结构 化 的 数据 中 进行 命名 


表示 。 宠物 知识 图 谱 使 用 藤 


盟 性 图 模型 来 进行 知 


量 的 宠物 知识 图 谱 。 


全 


大 数据 环境 下 历史 人 物 知 识 图 谱 构建 与 实现 [09， 将 数据 以 
结构 化 的 方式 呈现 ， 建 立 以 关键 词 为 中 心 的 知识 体系 ， 通 过 采 
用 基于 标签 遍历 以 及 基于 链接 权重 的 方法 进行 数据 的 解析 ， 之 
后 将 获取 到 的 数据 存储 到 历史 人 物 库 ， 在 知识 图 谱 的 基础 上 进 


e) 知识 存储 。 宠 物 知识 
储 引擎 存储 获取 到 的 宠物 知识 数据 。 


日 了 OrientDB 图 数据 库存 


录用 定稿 


琦 ， 等 : 宠物 知识 图 谱 的 半自动 化 构建 方法 


宠物 知识 图 谱 


知识 存储 


| 
| 非 结构 化 数据 
| 


Schema 层 构 建 


图 谱 构 建 流程 


Fig.l Pet knowledge graph construction process 


2.1 Schema 层 的 设计 与 构建 
层 的 构建 是 对 整个 宠物 知识 医 
Schema 是 要 对 类 及 类 之 间 的 关系 进行 定义 , 也 就 是 对 知识 图 谱 


Schema 


pa 


中 的 概念 与 概念 之 间 的 语义 关系 进行 定义 。 


i 


本 文 构建 的 是 宠物 领域 的 知 


计 并 构建 了 宠物 领域 知识 
大 类 ， 其 中 包括 


谱 的 Schema 


大 类 宠物 品种 、 宠 物 疾 病 、 疾 病 


食物 。 


b) 宠物 疾病 
标准 、 治 疗 方法 和 防治 方法 。 
c) 宠物 食 4 
以 上 是 经 过 分 析 的 宠物 品种 、 宠 
疾病 症状 比较 特殊 ， 只 有 症 ; 


根据 定义 的 
a) e HasDisease( 有 疾病 )。 宠 物品 种 一 一 宠 


包括 可 食性 。 


普 框 架 的 构建 ， 


只 图 谱 (宠物 狗 和 猫 为 主 ), 设 
民 ， 定 义 了 基本 的 四 


种 与 宠物 疾病 之 间 存 在 关系 。 
b) e HasSymptom( 有 六 


店主 - 


高 、 毛 色 和 功能 。 
包括 科 属 、 概 述 、 发 病原 因 、i 


Ph 文 名 、 别 名 、 体 型 、 毛 长 、 英 文 
EE、 寿 命 、 价 格 、 


> 


区 疾病 和 宠物 食物 的 属性 


Ey 


大 名 称 ， 不 存在 属性 关系 的 定义 。 
四 大 类 ， 创 建 了 三 种 语义 关系 ， 分 别 是 : 
萄 疾病 ， 宠 物品 


疾病 与 疾病 如 
c)e EatFood(n 


FE 状 之 间 存 在 关系 。 
食物 )。 宠 物品 种 一 一 宠物 食物 ， 宠 物品 种 


与 宠物 食物 之 间 存 在 
以 上 就 是 宠物 入 
谱 的 Schema 如 医 


| 


2.2 数据 源 


宠物 知识 图 i 


状 )。 宠 物 疾病 一 一 ; 


习 谱 概念 与 语义 关系 的 创建 。 


庆 ; EY 


国内 的 关于 宠物 的 网 站 上 


症状 和 宠物 


会 断 


宠物 知识 


取 知 识 。 本 


文 主要 从 “ 铃 销 宠物 ”和 “ 


识 ， 其 中 在 铃 外 宠物 抽取 了 


局 


E。 有 宠 网 站 上 面 有 关于 宠 4 


提供 了 质量 较 高 的 半 结 构 化 数据 , 所 以 在 有 宠 网 站 


个 实体 。 


性 


Class 


e_HasDisease 


e 


hinaXiv 合 作 期 刊 | 

有 宠 ” 两 家 宠物 取 有 用 的 知 
92 种 食物 的 实体 ， 以 及 食物 的 属 
匆 品 种 和 宠物 的 } 百科 知识 ， 
取 了 1367 


EatFood 


Fig.2 ”Pet knowledge graph Schema layer 
2.3 ”从 半 结 构 化 数据 中 抽取 

本 文 主要 从 “ 铃 匀 宠 物 ” 和 “有 宠 ” 这 有 两 
化 数据 中 抽取 宠物 品种 、 宠 物 疾 ; 
以 及 语义 关系 。 采 用 的 是 网 页 
集 网 页 信息 。 
本 文选 用 可 以 从 HTML 网 页 
Beautiful Soup 作为 解析 器 。 基 于 


图 2 ”宠物 知识 图 谱 Schema 层 


/ 


以 避免 大 量 遍 历 节点 ， 从 而 提 是 


口 


及 食物 属性 的 实体 。 同 时 在 


系 的 挖掘 ， 获 取 了 三 种 语义 关系 。 宠 


个 网 站 的 半 结 构 
志和 宠物 食物 的 实体 、 实 体 属 
翁 虫 和 数据 解析 。 通 过 把 虫 采 


Pp 提取 数据 的 python 库 一 
网 页 页 面 布局 相似 的 特点 ， 采 
用 基于 标签 遍历 的 方法 ， 直 接 导航 到 DOM 树 的 关键 节点 ， 可 
区 相关 网 页 正文 。 通 过 此 方法 ， 


以 抽取 宠物 品种 以 及 属性 、 


如 图 3 所 示 。 


中 毒 ， 也 抽取 了 阿司匹林 中 毒 


宠物 疾病 以 及 属性 、 
由 取 实 体 的 过 程 


宠物 食物 以 
FPF 也 实现 了 语义 关 


鬼 狗 的 阿 司 


匹 林 中 毒 疾病 


图 3 中 ， 解 析 网 页 抽取 了 宠物 疾病 实例 宠物 狗 的 阿 避 


标准 、 治 疗 方法 五 个 属性 ， 根 据 本 文 对 宠物 疾病 属 | 


了 
局 
并 


的 科 属 、 概 述 、 发 病原 因 、 诊 断 


二 


生 的 定义 ， 


也 就 获取 了 五 条 “属性 一 值 ”关系 , 用 三 元 组 描述 为 < 实体 ， 属 


改 


《有 疾病 ) 这 种 语义 ， 图 3 
确 ， 还 需要 从 主要 症状 中 抽 
本 文 将 采用 CRF 与 症状 词 


E, 属性 值 >, 同时 这 是 宠物 狗 的 疾病 , 也 就 获 


Ph 基本 资料 里 


取 ,， 主 要 症状 


| 


取 了 e Hasdisease 
的 症状 不 全 也 不 正 
段 非 结构 化 文本 . 


相 结合 的 六 


进行 症状 实体 的 抽取 ,这 可 以 得 到 e@_Hassymptom( 


E 状 命名 实体 识别 方法 


症状 ) 这 种 


201811.00194v1 


chinaXiv 


治疗 方法 
动物 摄 入 阿司匹林 应 尽早 催 吐 、 洗 胃 、 服 用 活性 炭 及 导 泻 药物 ， 阻 止 毒 
物 进一步 吸收 ， 碱 化 尿 液 36 一 48h， 促 进 毒物 的 排出 ;碳酸 所 钠 ，50m g/ 
kg， 口 服 ， 每 天 2 一 3 次 ， 碳 酸 氧 钠 也 可 缓解 机 体 的 代谢 性 酸 中 毒 。 支 持 
疗法 : 补液 、 补 充电 解 质 ， 维 持 酸 碱 平 衡 ， 应 用 骨 肠 道 保护 剂 及 组 胺 受 
体 颜 闫 剂 虫 且 咪 股 、 甲 腕 叶 硫 )， 病情 严重 者 进行 碱 性 腹膜 透析 液 析 。 


图 3 阿司匹林 中 毒 疾病 
Fig.3 Aspirin poisoning disease 

2.4 从 非 结 构 化 数据 中 抽取 

本 文 需要 从 非 结构 文本 中 进行 命名 实体 识别 来 抽取 症状 的 
实体 。 在 目前 现 有 的 很 多 机 器 学 习 算法 中 ，CRF 不 仅 可 以 使 用 
包括 字 、 词 、 词 性 在 内 的 多 种 上 下 文 特征 ， 还 可 以 结合 词典 等 
外 部 特征 ， 在 命名 实体 识别 等 任务 中 取得 了 较 好 的 效果 。 本 文 
因此 研究 采用 了 CRF 与 症状 词典 结合 的 方法 ,症状 命名 实体 识 
别 的 关键 技术 框架 如 图 4 所 示 。 


症状 文本 


v 


预 处 理 (分词 ) 


时 
特征 选取 
| v 
构建 训练 集 构建 测试 集 
| M4 
CRF 结 合 词典 训练 区 。 CRF 结合 词典 模型 


村 


症状 命名 实体 识别 


y 


实验 结果 


图 4 症状 命名 实体 识别 关键 技术 框架 


Fig.4 Key technical framework for symptomatic named entity 


recognition 
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语义 。 2.4.1 数据 集 与 标注 
经 查阅 文献 和 网 上 资源 后 ， 发 现 国内 外 目前 没有 公开 的 宠 
网 同 四 外 物 医 疗 领域 的 用 于 症状 命名 实体 识别 的 数据 集 ， 因 此 本 文 需要 
基本 资料 、\ 叶 五 业 \ 、 PE y 
入 和 从 下 陈 Dit 自己 构造 语料库 。 本 文 共 抽取 了 285 条 描述 症状 的 文本 ， 其 中 
FE 状 : 食欲 
概述 将 100 条 构建 成 训练 集 ，30 条 文本 构建 成 测试 集 。 当 准确 率 达 
ER 攻 交 后 本 间 区 条 后 扑 上 上 到 他 天 于 化 罗 和 但 也 可 i 2 | 人 六 二 疆 
能 会 引起 高 血糖 。 病 猫 患 病 初期 兴奋 呼吸 ， 后 期 则 转 为 抑制 呼吸 。 会 出 求 让 准 1 站 和 ' 
现代 谢 性 酸 中 毒 、 血 小 板 凝 集 作用 下 降 、 愉 入 发 受阻 症状 。 到 要 求 时 ， 将 用 训练 好 的 模型 来 从 285 条 无 结构 化 文本 中 抽取 
发 病原 因 症状 的 实体 。 
意外 吞食 阿司匹林 乙酰 水 杨 酸 ) 或 药物 使 用 剂量 不 当 。 幼 犬 由 于 体内 缺 
Fy ~ 其 是 缺乏 合成 葡萄 化 物 的 酶 ， 发 本 病 。 病 犬 一 ES ,Fw 、 =B ;五 业 \ \ 症 人 一 
用 net 人 下 本 标记 完 语料库 之 后 ， 需 要 对 语料库 进行 格式 转换 ， 按 昭 
主要 症状 ee BIESO 对 语 料 进行 标志 。 标 记 为 B-SIGNS、I-SIGNS、E-SIGNS、 
、 哎 吐 、 溃 疡 性 肠炎 、 代 谢 性 酸 中 毒 等 症状 ， 严 重 时 出 迷 、 一 -二 FE 二 FE Ey FE y 
Wie a S、0O， 分 别 标志 症状 的 首部 、 症 状 的 中 部 、 症 状 的 尾部 、 单 个 
EE 
2 症状 词 和 非 症状 词 。 表 1 为 使 用 BIESO 标记 实体 的 举例 。 
诊断 了 解 病史 对 本 病 的 诊断 十 分 有 益 ; 代谢 性 酸 中 毒 、 尿 酸 、 阴 离子 间 二 四 
聊 增 大 ， 血 清 或 尿 中 的 水 杨 本 含量 具有 一 定 诊断 意义 ” 取 了 误 波 ， 本 化 表 1 BIESO 标记 实体 举例 
后 加 入 3 滴 10% 握 化 铁 ， 出 现 红色 ， 表 明 水 杨 酸 阳 性 ， 应 与 其 他 引起 胃炎 
及 严重 代谢 性 酸 中 毒 的 疾病 ， 乙 二 醇 中 毒 ， 其 他 非 类 固 醇 抗菌 消炎 雪 Table 1 Examples of BIESO marked entities 
1， 如 布 洛 芬 中 毒 区 别 。 


何 陡 BIESO 标记 
病犬 鼻腔 粘膜 呈现 病犬 /O 自 腔 /B-SIGN 粘膜 /LSIGNS 呈现 /I-SIGNS 
潮红 、 肿 胀 潮红 /E-SIGNS、/O 肿胀 /S-SIGNS 


2.4.2 CRE 与 症状 词典 相 结 合 的 命名 实体 识别 方法 

由 于 需要 从 描述 症状 的 非 结构 化 文本 中 抽取 症状 实体 ， 所 
以 采用 了 CRF 与 症状 词典 相 结合 命名 实体 识别 方法 。 主 要 是 通 
过 网 上 查找 分 析 ， 构 造 一 个 症状 的 词典 ， 这 样 就 可 以 利用 症状 
词典 获取 文本 中 词语 的 语义 类 别 信 息 ， 并 把 语义 类 别 信息 作为 
特征 传递 给 CRF 模型 去 识别 文本 中 的 症状 实体 ,类 别 信息 如 表 
2 所 示 。 本 文 将 描述 症状 的 文本 分 为 两 类 ， 即 描述 症状 的 术语 
记 为 “BS”， 其 他 非 症状 术语 记 为 “BO”。 

表 2 类 别 信息 


Table 2 Category information 


md 


类 别 描述 举例 标记 
症状 术语 宠物 因 疾 病 而 导致 的 异常 表现 或 不 适 呕吐 、 呼 吸 急促 。 BS 
其 他 文本 中 的 其 他 词汇 病犬 、 长 期 用 药 ”BO 


特征 集 是 症状 实体 识别 成 功 的 关键 。 为 了 提高 命名 实体 识 
别 的 准确 率 ， 通 过 对 描述 症状 的 文本 分 析 。 本 文 特征 集 包 括 
word” 语 言 符号 特征 、 词 性 特征 以 及 症状 词典 特征 ， 如 表 3 
所 示 。 


表 3 症状 特征 


Table3 Symptom characteristics 


序号 特征 描述 
1 Word 当前 词 的 字符 信息 
2 Pos 当前 词 的 词性 
3 dict 当前 词 在 症状 术语 中 的 语义 类 别 


1)“word” 语 言 符号 特征 ”Word 语言 符号 特征 指 的 是 词 的 
本 身 ， 包 含 丰 富 的 有 效 信息 。 词 是 一 种 语言 符号 ， 本 身 可 以 作 
为 一 种 特征 ， 反 映 字符 信息 。 与 英文 不 同 ， 中 文 之 间 没 有 明显 
的 空格 分 隔 符 ， 所 以 在 进行 症状 的 实体 识别 之 前 ， 需 要 将 文本 
进行 分 词 ， 之 后 将 分 词 结果 作为 word 特征 引入 。 

2)“pos” 词 性 特征 ”在 宠物 疾病 症状 的 实体 识别 任务 中 ， 


如 
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文本 中 的 症状 实体 通常 出 现在 动词 后 


主要 包括 动词 、 名 词 、 副 词 


下 ,所 以 将 词性 作为 特征 


等 
于 o 


3) “dict” 词 典 特 征 
需要 引入 词典 特 生 


文本 单词 ， 


文本 中 包含 大 量 专业 症状 名 词 ， 所 以 
E， 通 过 构造 的 症状 术语 词 
结果 返回 症状 的 语义 类 别 。 词 


匹配 
大 词 


， 用 该 词 
特征 就 是 症 ; 


对 当前 单词 的 识别 结果 ， 分 为 “BS” 和 “BO”。 


2.4.4 实验 与 结 


本 文 总 共有 285 条 非 结 构 化 文本 数据 ,其 中 使 用 标注 的 130 
条 数据 集 做 实验 , 将 100 条 文本 作为 训练 集 ，30 条 作为 测试 集 


来 进行 实验 。 为 了 得 到 可 靠 稳定 的 模型 ， 
折 交 叉 验 证 ， 从 而 得 到 CRF 模型 的 最 优 参数 ， 
条 测试 集 上 测试 。 实 验 采 月 


采用 基于 训练 集 的 10 
于 单独 的 30 


目的 是 机 器 学 习 常用 的 评价 指标 


precision( 准 确 率 )、recall (召回 率 ) 以 及 F 值 (F-measure)。 具 
体 定义 如 下 : 
正确 识别 出 的 实体 个 数 
P= 一 — 100% (3) 
识别 出 的 实体 个 数 ”  “ 
正确 识别 出 的 实体 个 数 
pe ~ x100% (4) 
标准 结果 中 的 实体 个 数 ” ” 
F= 2 x100% (5) 
+R 


进行 对 比 实验 的 硬件 平台 为 戴尔 Alienware Aurora R7， 


CPU 3.7 GHz Intel Core i7，RAM 32 GB,， 硬盘 2 TB+512 GB 
SSD。 分 为 加 词典 特征 和 不 加 词 


特征 的 对 比 实验 ， 进 行 两 个 


实验 来 看 识别 症状 实体 的 实验 效果 。 实 验 结果 如 表 4 所 示 
表 4 实验 结果 对 比 


不 。 


Table 4 Comparison of experimental results 


方法 precision recall F-measure 

CRF 0.8413 0.8172 0.8291 
CRF+dict 0.8978 0.8817 0.8897 
通过 对 比 实验 ,结果 显示 结合 了 动物 症状 术语 词典 的 CRF 


模型 比 没有 结合 词 


特征 的 CRF 模型 识别 效果 有 了 不 错 的 提 


升 , 准确 率 、 召回 率 和 下 值 者 


了 提高 


不 少 , 分 别提 升 了 6.71%、 


9.08% 和 7.90%, 其 中 召回 率 


二 各 
EJ 


幅 


症状 识别 效果 的 提升 原因 是 


因为 在 症状 的 


现 的 , 不 具有 明显 特征 的 症 ; 


度 最 大 。 分 析 实 验 结果 发 现 ， 
和 述 训练 集中 很 少 出 


大 被 结合 症状 词典 的 


CRF 模型 准确 


地 识别 了 


出 来 ,如 “多 饮 多 尿 ”在 本 文 的 训练 集中 没有 这 样 接 
述 症状 的 术语 ， 但 是 动物 症状 术语 词 
了 语义 类 别 信息 


识别 


了 出 来 ， 结 合 动物 
息 ， 识 别 效果 比 未 


症状 词典 的 CRF 模型 ， 因 为 
结合 动物 症状 术语 的 CRF 模型 好 。 


因为 识别 出 来 的 准确 率 达 到 了 91.63%， 召 回 率 达到 了 


加 


90.32%， 准 确 率 和 召 


率 都 达到 


en 


了 这 个 训练 好 的 结合 症状 词 


比较 高 的 数值 ， 所 以 本 文采 


册 的 CRF 模型 从 285 条 非 结构 
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点 表示 实体 ， 边 代表 关系 。 知 识 图 谱 图 模型 可 以 使 用 W3C 提 
出 的 资源 描述 框架 (resource description ffame，RDF ) 或 者 属性 
图 (property graph ) 来 表示 09。 本 文 因为 使 用 OrientDB 图 数据 
库 来 存储 获取 到 的 宠物 领域 的 数据 ， 所 以 使 用 属性 图 模型 来 进 
行 知 识 的 表示 。 
属性 图 包含 实体 (节点 ) 和 链接 实体 的 关系 〈 边 )。 实 体 可 
以 包含 任何 数量 的 属性 〈 键 值 对 形式 )， 属 性 图 中 的 元 素 如 下 : 

a) 一 组 节点 。 每 个 节点 有 唯一 的 标志 符 @rid， 每 个 顶点 有 
一 组 出 边 和 入 边 ， 每 个 顶点 都 有 个 实体 类 型 @class， 表 示 实 体 
所 对 应 的 概念 类 ， 每 个 顶点 有 键 值 对 来 定义 属性 集合 。 

b) 一 组 边 。 每 条 边 都 标志 符 @rid， 每 条 边 有 一 
个 头 节 点 和 尾 节点 ， 每 条 边 有 个 实体 类 型 @class， 表 示 两 个 节 
点 之 间 的 关系 ， 每 条 边 有 键 值 对 来 定义 属性 结合 。 

5 描述 了 一 个 OrientDB 的 属性 图 模型 ， 奖 病 “ 犬 瘟 热 ” 
实体 和 症状 “发 热 ” 之 间 的 关系 是 e_Hassymptom( 有 症状 )。 其 
中 @rid 是 唯一 标志 符 ，@class 是 实体 类 型 , 也 就 是 对 应 的 概念 
类 , out 对 应 的 是 头 节点 也 就 是 疾病 节点 , in 对 应 的 是 尾 节 点 也 
就 是 症状 节点 , name 和 keshu 等 键 值 对 是 对 对 应 节点 属性 的 描 


一 


个 唯 


@rid:#143:251 
@class:e_HasSymptom 
out: #76:5 

in: #35:0 


e_HasSymptom 


@rid :#765 


@class: 疾 病 @rid : #35:0 
name: 犬 竟 热 @class: 症状 
name: 发 烧 


Keshu: 传染 性 疾病 


图 5 


Fig.5 Property map example 


属性 图 实例 


2.6 ”知识 存储 
本 文 使 用 的 是 图 数据 库 OrientDB .OrientDB 是 一 个 用 Java 
实现 的 开源 NoSQL07 数 据 库 管理 系统 。 它 是 一 个 多 模式 巩 


支持 图 形 、 文 档 、 键 值 对 、 对 象 模型 和 关系 ， 也 可 以 为 图 数据 
的 管理 与 记录 之 间 提 供 连 接 。 支 持 的 查询 语言 最 常用 的 是 
Gremlin09 和 SQL02， 用 来 操作 属性 图 ,支持 以 SQL 的 方式 来 
查询 数据 , 但 是 在 标准 的 SQL 上 面 扩展 一 些 功能 用 来 方便 图 的 


操作 ， 是 一 种 类 SQL 语句 。 
将 获取 到 的 宠物 领域 的 实例 层 数 据 通 过 OrientDB 原生 数 


化 文本 中 抽取 症状 实体 ， 共 
体 。 
2.5 ”知识 表示 


了 肥 


知识 图 谱 也 可 以 看 做 是 一 种 


图 


出 了 624 个 宠物 疾病 的 症状 实 


的 网 络 结构 ， 网 络 图 中 的 节 


据 库 进 行 知识 的 整合 和 存储 ， 存 储 语言 使 用 类 SQL。 首 先 需 要 
创建 模式 ， 根 据 Schema 层 的 定义 ， 创 建 概念 类 包括 宠物 品种 
(v_Breed)、 宠 物 疾病 (v_Disease)、 食 物 (v_Food )、 疾 病症 
疾病 (e_HasDisease)、 吃 食物 (e_EatFood) 


状 (v_Symptom)、 
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和 有 症状 〈e_HasSymptom ) 

在 创建 好 模式 之 后 ， 需 要 载 入 对 应 标签 中 的 所 有 节点 信息 
以 及 节点 之 间 的 关系 。 在 导入 数据 信息 时 为 了 防止 重复 的 节点 
言 息 和 重复 的 关系 , 需要 用 类 SQL 查询 语句 进行 判断 。 判断 症 
状 重复 和 载 入 症状 信息 的 类 SQL 查询 语句 如 下 所 示 : 


"LET $symptom = select from v_symptom WHERE name = '%s';"\ 


"if($symptom.size()<1){" \ 
"CREATE VERTEX v_symptom SET name = '%s';" \ 
"}"% Csymptom, symptom) 
类 SQL 语句 首先 在 图 数据 库 中 查询 该 症状 实体 , 然后 用 到 
了 让 语句 来 判断 症状 实体 是 否 已 经 存在 ， 如 果 symptom.size() 
小 于 1 的 话 则 表示 该 症状 实体 未 在 图 数据 库 中 出 现 , 则 要 创建 
表示 该 症状 的 新 的 实体 。 
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本 文 研究 了 在 宠物 领域 一 种 基于 数据 抽取 的 知识 图 谱 的 构 
建 方法 ， 并 且 详 细 地 描述 了 整个 构建 过 程 ， 通 过 实例 展示 了 本 
文 构建 的 知识 图 谱 , 则 在 为 宠物 领域 构建 比较 高 质量 的 知识 库 。 

首先 采用 自 顶 向 下 的 方式 构建 了 schema (概念) 层 ， 对 整 
个 宠物 知识 图 谱 框架 进行 了 构建 ， 也 就 是 对 知识 图 谱 中 的 概念 
和 概念 之 间 的 语义 关系 进行 定义 ; 然后 通过 从 半 结 构 化 的 数据 
中 进行 实体 、 关 系 和 属性 的 抽取 ， 从 非 结 构 化 数据 中 进行 命名 
实体 识别 和 抽取 。 在 非 结构 化 的 知识 抽取 中 ,提出 了 CRF 结合 
症状 词典 的 命名 实体 识别 方法 来 对 症状 实体 进行 识别 获取 ， 通 
过 做 实验 表明 ,结合 症状 词典 的 CRF 模型 比 未 结合 词典 的 CRF 
模型 效果 要 好 。 获取 完 宠物 知识 之 后 , 通过 OrientDB 数据 库 文 


Da 


表 5 为 全 部 数据 存储 到 图 数据 库 之 后 得 到 的 相关 详细 信息 。 


持 的 属性 图 模型 来 进行 知识 表示 。 选 用 OrientDB 原生 图 数据 库 


团 


为 OrientDB 内 置 集成 了 可 视 化 工具 , 所 以 通过 可 视 化 可 以 看 


来 进行 知识 的 存储 ,并且 通过 OrientDB 内 置 的 可 视 化 , 实例 展 


到 “ 犬 瘟 热 ”这 个 疾病 的 所 有 症状 的 可 视 化 结果 , 如 图 6 所 示 。 
中 蓝 色 节 点 表示 疾病 犬 癌 热 ， 橙色 节点 表示 犬 瘟 热 的 9 个 症 
状 ; 边 e HasSymptom 表示 有 症状 。 


到 


表 5 整合 后 的 知识 库 数据 统计 
Table5 Integrated knowledge base data statistics 
统计 项 数值 统计 项 数值 
实体 类 型 数 4 疾病 节点 数 285 
关系 类 型 3 食物 节点 数目 92 
届 性 数 20 节点 总 数目 1358 
症状 节点 数 624 关系 总 数目 79527 
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select fran v WHERE nane =“ 犬 益 热 ” 
多 V_Disease 


多 v_Symptom 
m= e_HasSymptom 


图 6 宠物 知识 图 谱 示 例 图 


Fig.6 Example of pet knowledge graph 


示 了 构建 的 宠物 知识 图 谱 。 

构建 知识 库 是 一 项 复杂 性 的 工作 ， 上 有 具有 系统 性 和 长 期 性 。 
宠物 知识 图 谱 需 要 改进 的 地 方 还 有 很 多 ， 比 如 宠物 领域 知识 还 
不 够 丰富 ， 还 需要 寻求 更 多 的 宠物 知识 源 来 扩展 知识 库 ， 并 进 
行 知识 融合 ， 包 括 实体 对 齐 和 模式 对 齐 等 。 研 究 建立 知识 图 谱 
的 更 新 机 制 ， 在 完善 了 宠物 知识 图 谱 之 后 ， 可 以 在 此 基础 上 进 
行 智能 问答 的 研究 ， 用 户 使 用 自然 语言 提出 问题 ， 通 过 知识 图 
谱 的 帮助 下 对 问题 进行 语法 分 析 和 语义 分 析 ， 将 问题 转换 成 结 
构 化 的 查询 语句 ,使 用 图 的 查询 语句 ,在 知识 图 谱 中 查询 答案 。 

总 的 来 说 ， 本 文 设计 并 实现 了 基于 数据 抽取 的 宠物 知识 图 
谱 ， 填 补 了 国内 在 宠物 领域 知识 图 谱 的 缺失 。 该 知识 库 为 宠物 
领域 知识 的 应 用 提供 了 语 料 基础 ， 为 宠物 领域 问答 机 器 人 呐 定 
了 基础 ， 具 有 重要 意义 ; 同时 本 文 提出 的 构建 方法 对 垂直 领域 
知识 图 谱 的 构建 具有 一 定 借鉴 意义 。 
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